Manticore Search Manual

Таблица-шаблон — это особый тип таблицы в Manticore, который не хранит никаких данных и не создает файлов на диске. Несмотря на это, она может иметь те же настройки НЛП, что и обычная или реального времени таблица. Таблицы-шаблоны могут использоваться для следующих целей:

В качестве шаблона для наследования настроек в режиме Plain, упрощая конфигурационный файл Manticore.
Генерация ключевых слов с помощью команды CALL KEYWORDS.
Подсветка произвольной строки с помощью команды CALL SNIPPETS.

‹›

CONFIG

CONFIG

📋

table template {
  type = template
  morphology = stem_en
  wordforms = wordforms.txt
  exceptions = exceptions.txt
  stopwords = stopwords.txt
}

Токенизация данных

Last modified: August 28, 2025

≫ NLP и токенизация

Manticore не хранит текст точно таким, каким он является, для полнотекстового поиска. Вместо этого он разбивает текст на слова (называемые токенами) и строит несколько внутренних структур для обеспечения быстрого полнотекстового поиска. Эти структуры включают словарь, который помогает быстро проверить, существует ли слово в индексе. Другие структуры отслеживают, в каких документах и полях содержится слово, и даже где именно в поле оно появляется. Все это используется во время поиска для нахождения релевантных результатов.

Процесс разбивания и обработки текста таким образом называется токенизацией. Токенизация происходит как при добавлении данных в индекс, так и при выполнении поиска. Она работает как на уровне символов, так и на уровне слов.

На уровне символов допускаются только определённые символы. Это контролируется с помощью charset_table. Все остальные символы заменяются пробелом (который рассматривается как разделитель слов). charset_table также поддерживает такие операции, как преобразование символов в нижний регистр или замену одного символа на другой. Она также может определять символы для игнорирования, объединения или обработки как границу фразы.

На уровне слов движок использует настройку min_word_len, чтобы определить минимальную длину слова (в символах), которое должно индексироваться.

Manticore также поддерживает сопоставление слов в разных формах. Например, чтобы считать "car" и "cars" одним и тем же словом, вы можете использовать морфологические процессоры.

Если вы хотите, чтобы разные слова рассматривались как одно — например, "USA" и "United States" — вы можете определить их с помощью функции word forms.

Очень распространённые слова (например, "the", "and", "is") могут замедлять поиск и увеличивать размер индекса. Вы можете отфильтровать их с помощью стоп-слов. Это может ускорить поиск и уменьшить размер индекса.

Более продвинутый метод фильтрации — это биграммы, которые создают специальные токены, объединяя распространённое слово с редким. Это может значительно ускорить поиск по фразам, в которых участвуют распространённые слова.

Если вы индексируете HTML, обычно лучше не включать HTML-теги в индекс, так как они добавляют много лишнего содержимого. Вы можете использовать очистку HTML, чтобы убрать теги, но при этом индексировать определённые атрибуты тегов или полностью пропускать некоторые элементы.

Имейте в виду, что у Manticore есть максимальная длина токена — 42 символа. Любое слово длиннее этой длины будет усечено. Это ограничение применяется как во время индексации, так и при поиске, поэтому важно учитывать его при подготовке данных и формировании запросов.

Шаблонная таблица Поддерживаемые языки

Last modified: August 28, 2025

Manticore поддерживает широкий спектр языков, при этом базовая поддержка включена для большинства языков через charset_table = non_cont (что является значением по умолчанию). Также можно использовать опцию non_cjk, которая является синонимом для non_cont: charset_table = non_cjk.

Для многих языков Manticore предоставляет файл с стоп-словами, который можно использовать для улучшения релевантности поиска.

Кроме того, для некоторых языков доступна продвинутая морфология, которая может значительно улучшить релевантность поиска, используя лемматизацию на основе словаря или алгоритмы стемминга для лучшей сегментации и нормализации.

В таблице ниже перечислены все поддерживаемые языки и указано, как включить:

базовую поддержку (столбец "Supported")
стоп-слова (столбец "Stopwords file name")
продвинутую морфологию (столбец "Advanced morphology")

Язык	Поддерживается	Имя файла стоп-слов	Расширенная морфология	Примечания
Африкаанс	charset_table=non_cont	af	-
Арабский	charset_table=non_cont	ar	morphology=stem_ar (арабский стеммер); morphology=libstemmer_ar
Армянский	charset_table=non_cont	hy	-
Ассамский	указать charset_table вручную	-	-
Баскский	charset_table=non_cont	eu	-
Бенгальский	charset_table=non_cont	bn	-
Биснуприя	указать charset_table вручную	-	-
Бухид	указать charset_table вручную	-	-
Болгарский	charset_table=non_cont	bg	-
Каталанский	charset_table=non_cont	ca	morphology=libstemmer_ca
Китайский с использованием ICU	charset_table=chinese	zh	morphology=icu_chinese	Более точно, чем использование ngrams
Китайский с использованием Jieba	charset_table=chinese	zh	morphology=jieba_chinese, требуется пакет `manticore-language-packs`	Более точно, чем использование ngrams
Китайский с использованием ngrams	ngram_chars=chinese	zh	ngram_chars=1	Быстрая индексация, но производительность поиска может быть не такой хорошей
Хорватский	charset_table=non_cont	hr	-
Курдский	charset_table=non_cont	ckb	-
Чешский	charset_table=non_cont	cz	morphology=stem_cz (чешский стеммер)
Датский	charset_table=non_cont	da	morphology=libstemmer_da
Голландский	charset_table=non_cont	nl	morphology=libstemmer_nl
Английский	charset_table=non_cont	en	morphology=lemmatize_en (одна основная форма); morphology=lemmatize_en_all (все основные формы); morphology=stem_en (стеммер Портера для английского); morphology=stem_enru (стеммеры Портера для английского и русского); morphology=libstemmer_en (английский из libstemmer)
Эсперанто	charset_table=non_cont	eo	-
Эстонский	charset_table=non_cont	et	-
Финский	charset_table=non_cont	fi	morphology=libstemmer_fi
Французский	charset_table=non_cont	fr	morphology=libstemmer_fr
Галисийский	charset_table=non_cont	gl	-
Гаро	указать charset_table вручную	-	-
Немецкий	charset_table=non_cont	de	morphology=lemmatize_de (одна основная форма); morphology=lemmatize_de_all (все основные формы); morphology=libstemmer_de
Греческий	charset_table=non_cont	el	morphology=libstemmer_el
Иврит	charset_table=non_cont	he	-
Хинди	charset_table=non_cont	hi	morphology=libstemmer_hi
Хмонг	указать charset_table вручную	-	-
Хо	указать charset_table вручную	-	-
Венгерский	charset_table=non_cont	hu	morphology=libstemmer_hu
Индонезийский	charset_table=non_cont	id	morphology=libstemmer_id
Ирландский	charset_table=non_cont	ga	morphology=libstemmer_ga
Итальянский	charset_table=non_cont	it	morphology=libstemmer_it
Японский	ngram_chars=japanese	-	ngram_chars=japanese ngram_len=1	Требуется сегментация на основе ngram
Коми	указать charset_table вручную	-	-
Корейский	ngram_chars=korean	-	ngram_chars=korean ngram_len=1	Требуется сегментация на основе ngram
Большой Цветочный Мяо	указать charset_table вручную	-	-
Латинский	charset_table=non_cont	la	-
Латышский	charset_table=non_cont	lv	-
Литовский	charset_table=non_cont	lt	morphology=libstemmer_lt
Маба	указать charset_table вручную	-	-
Майтхили	указать charset_table вручную	-	-
Маратхи	указать charset_table вручную	-	-
Маратхи	charset_table=non_cont	mr	-
Менде	указать charset_table вручную	-	-
Мру	указать charset_table вручную	-	-
Миене	указать charset_table вручную	-	-
Непальский	указать charset_table вручную	-	morphology=libstemmer_ne
Нгамбай	указать charset_table вручную	-	-
Норвежский	charset_table=non_cont	no	morphology=libstemmer_no
Ория	указать charset_table вручную	-	-
Персидский	charset_table=non_cont	fa	-
Польский	charset_table=non_cont	pl	-
Португальский	charset_table=non_cont	pt	morphology=libstemmer_pt
Румынский	charset_table=non_cont	ro	morphology=libstemmer_ro
Русский	charset_table=non_cont	ru	morphology=lemmatize_ru (одна основная форма); morphology=lemmatize_ru_all (все основные формы); morphology=stem_ru (стеммер Портера для русского); morphology=stem_enru (стеммеры Портера для английского и русского); morphology=libstemmer_ru (из libstemmer)
Сантали	указать charset_table вручную	-	-
Синдхи	указать charset_table вручную	-	-
Словацкий	charset_table=non_cont	sk	-
Словенский	charset_table=non_cont	sl	-
Сомалийский	charset_table=non_cont	so	-
Сесото	charset_table=non_cont	st	-
Испанский	charset_table=non_cont	es	morphology=libstemmer_es
Суахили	charset_table=non_cont	sw	-
Шведский	charset_table=non_cont	sv	morphology=libstemmer_sv
Сильхети	указать charset_table вручную	-	-
Тамильский	указать charset_table вручную	-	morphology=libstemmer_ta
Тайский	charset_table=thai	th	-
Турецкий	charset_table=non_cont	tr	morphology=libstemmer_tr
Украинский	charset_table=non_cont,U+0406->U+0456,U+0456,U+0407->U+0457,U+0457,U+0490->U+0491,U+0491	-	morphology=lemmatize_uk_all	Требуется установка украинского лемматизатора
Вьетнамский	charset_table=non_cont	-	-	Использует латинский алфавит. Вьетнамские диакритические знаки (ă, â, ê, ô, ơ, ư, đ и тоновые знаки) по умолчанию автоматически сопоставляются с их базовыми латинскими символами, поэтому "tiếng" соответствует "tieng" без дополнительной настройки.
Йоруба	charset_table=non_cont	yo	-
Зулу	charset_table=non_cont	zu	-

Токенизация данных Языки с непрерывными скриптами

Last modified: January 20, 2026

Таблицы-шаблоны

≫ NLP и токенизация

Токенизация данных

Токенизация на уровне символов

Токенизация на уровне слов

Обработка распространённых и «шумных» слов

HTML-контент

Ограничение длины токена

Поддерживаемые языки